Cognitive Architectures for Language Agents

言語エージェントのための認知アーキテクチャ

Theodore R. Sumers∗ Shunyu Yao∗ Karthik Narasimhan Thomas L. Griffiths
Princeton University
{sumers, shunyuy, karthikn, tomg}@princeton.edu

Reviewed on OpenReview: https: // openreview. net/ forum? id= 1i6ZCvflQJ

要旨

近年の取り組みでは、大規模言語モデル(LLM)を外部リソース(例:インターネット)や内部制御フロー(例:プロンプトチェーニング)で拡張し、グラウンディングや推論を必要とするタスクに対応させることで、新しいクラスの言語エージェントが誕生しました。これらのエージェントは実証的に大きな成功を収めていますが、既存のエージェントを体系化し、将来の開発を計画するための枠組みが不足しています。本稿では、認知科学とシンボリック人工知能の豊かな歴史を踏まえ、言語エージェントのための認知アーキテクチャ(CoALA)を提案します。CoALAは、モジュール式の記憶コンポーネント、内部記憶や外部環境と相互作用するための構造化された行動空間、そして行動を選択するための一般化された意思決定プロセスを備えた言語エージェントを記述します。私たちはCoALAを用いて、最近の膨大な研究成果を遡及的に調査・整理し、より有能なエージェントに向けた実用的な方向性を将来的に特定します。総合的に考えると、CoALAは今日の言語エージェントをAIのより広い歴史の中で位置づけ、言語ベースの汎用知能への道筋を概説しています。

1 はじめに

言語エージェント(Weng, 2023; Wang et al., 2023b; Xi et al., 2023; Yao and Narasimhan, 2023)は、大規模言語モデル(LLM; Vaswani et al., 2017; Brown et al., 2020; Devlin et al., 2019; OpenAI, 2023a)を用いて世界と相互作用する、新興の人工知能(AI)システムです。言語エージェントは、LLMの最新の進歩を既存のエージェント設計分野(Russell and Norvig, 2013)に適用します。興味深いことに、この統合は両方の分野にメリットをもたらします。LLMは知識と推論能力が限られています。言語エージェントは、LLMを内部メモリや環境に接続し、既存の知識や外部観測に根ざさせることで、これらの問題を軽減します。一方、従来のエージェントは、手作業で作成されたルール(Wilkins, 2014)や強化学習(Sutton and Barto, 2018)を必要とすることが多く、新しい環境への一般化が困難です(Lake et al., 2016)。言語エージェントは、LLMに存在する常識的な事前確率を活用して新しいタスクに適応することで、人間による注釈付けや試行錯誤による学習への依存を軽減します。

初期のエージェントはLLMを用いて行動を直接選択または生成していました(図1B; Ahn et al., 2022; Huang et al., 2022b)が、最近のエージェントはLLMを用いて推論(Yao et al., 2022b)、計画(Hao et al., 2023; Yao et al., 2023)、長期記憶の管理(Park et al., 2023; Wang et al., 2023a)を行い、意思決定を改善しています。この最新世代の認知言語エージェントは、驚くほど洗練された内部プロセスを用いています(図1C)。しかしながら、今日では個々の研究においてこれらのプロセスを説明する際に独自の用語(「道具の使用」「グラウンディング」「行動」など)が使用されており、異なるエージェントを比較したり、時間の経過とともにどのように進化しているかを理解したり、明確で一貫性のある抽象化を持つ新しいエージェントを構築したりすることが困難になっています。

図1:大規模言語モデル(LLM)の様々な用途。A:自然言語処理(NLP)において、LLMはテキストを入力として受け取り、テキストを出力します。B:言語エージェント(Ahn et al., 2022; Huang et al., 2022c)は、観測データをテキストに変換し、LLMを用いて行動を選択することにより、LLMを外部環境との直接的なフィードバックループに組み込みます。C:認知言語エージェント(Yao et al., 2022b; Shinn et al., 2023; Wang et al., 2023a)はさらに、学習や推論などのプロセスを通じてエージェントの内部状態を管理するためにLLMを使用します。本研究では、このようなエージェントを構築するための青写真を提案します。

これらの取り組みを体系化する概念的枠組みを確立するために、コンピューティングと人工知能(AI)の歴史における2つの概念、すなわちプロダクションシステムと認知アーキテクチャを類似点として取り上げます。 プロダクションシステムは、ルールを反復的に適用することで一連の結果を生成します(Newell and Simon, 1972)。 プロダクションシステムは、LLMが解決する問題の類似点である文字列操作システムとして始まり、その後、AIコミュニティによって、複雑で階層的に構造化された動作を実行できるシステムを定義するために採用されました(Newell et al., 1989)。そのために、プロダクションシステムは、新しいプロダクションを選択、適用、さらには生成するための制御フローを規定する認知アーキテクチャに組み込まれました(Laird et al., 1987; Laird, 2022; Kotseruba and Tsotsos, 2020)。我々は、プロダクションシステムとLLMの間に意味のある類似性を提案する。プロダクションが文字列を変更する可能性のある方法を示すのと同様に、LLMはテキストへの変更または追加の分布を定義する。これはさらに、プロダクションシステムで使用される認知アーキテクチャの制御が、LLMを言語エージェントに変換するのに同様に適用可能であることを示唆する。

そこで我々は、汎用言語エージェントを特徴づけ、設計するための概念的枠組みとして、言語エージェントのための認知アーキテクチャ(CoALA)を提案する。CoALAは、エージェントを3つの主要な次元、すなわち、情報記憶(作業記憶と長期記憶に分割)、行動空間(内部行動と外部行動に分割)、そして意思決定手順(計画と実行を伴う対話型ループとして構造化)に沿って体系化する。これらの3つの概念(記憶、行動、意思決定)を通して、CoALAは既存のエージェントの膨大な集合を簡潔に表現し、未開拓の方向性を特定して新しいエージェントを開発できることを示す。注目すべきことに、最近のいくつかの論文では汎用知能の概念アーキテクチャが提案されている(LeCun, 2022; McClelland et al., 2019)か、言語モデルとエージェントを実証的に調査している(Mialon et al., 2023; Weng, 2023; Wang et al., 2023b)のに対し、本論文では両方の要素を組み合わせています。つまり、理論的枠組みを提案し、それを用いて多様な実証研究を体系化します。これにより、私たちの理論は既存の実践に根ざしたものとなり、将来の研究に向けた短期的および長期的な方向性を特定することが可能になります。

本論文の残りの構成は以下のとおりです。まず、プロダクションシステムと認知アーキテクチャ(第2節)を紹介し、LLMと言語エージェントにおける最近の発展が、これらの歴史的な考え方をどのように要約しているかを示します(第3節)。これらの類似点を踏まえ、第4節ではCoALAフレームワークを紹介し、それを用いて既存の言語エージェントを概観します。第5節では、いくつかの著名なエージェントについて、より詳細なケーススタディを行います。第6節では、将来の言語エージェントを構築するための実用的なステップを提案し、第7節では、認知科学とAIのより広範な分野における未解決の問題について考察します。最後に、第8節で結論を述べます。応用エージェント設計に関心のある読者は、第4節から第6節を優先してお読みください。

2 背景:文字列からシンボリックAGIへ

まず、プロダクションシステムと認知アーキテクチャを紹介し、認知科学と人工知能の歴史的展望を示す。論理と計算の理論(Post, 1943)から始まり、記号的汎用人工知能の構築への試み(Newell et al., 1989)までを概観する。次に、言語モデルと言語エージェントについて簡単に紹介する。第3節では、プロダクションシステムと言語モデルの類似点を示しながら、これらの概念を関連付ける。

2.1 文字列操作のためのプロダクションシステム

20世紀前半には、一連の重要な知的研究によって、数学(Whitehead and Russell, 1997)と計算(Church, 1932; Turing et al., 1936)が記号操作へと還元されました。プロダクションシステムはそのような形式主義の一つです。直感的に、プロダクションシステムは一連の規則から成り、各規則は前提条件と動作を指定します。前提条件が満たされると、動作を実行できます。このアイデアは、計算の限界を特徴づけようとする試みに端を発しています。Post (1943) は、任意の論理システムをこの用語で考えることを提案しました。そこでは、式は文字列として表現され、それらが許す結論は(ある文字列が別の文字列を「生成する」ように)プロダクション規則によって識別されます。この定式化は、その後、より単純な文字列書き換えシステムと同等であることが示されました。このようなシステムでは、以下の形式の規則を指定します。 \[ X Y Z → X W Z \] これは、文字列XYZが文字列XWZに書き換えられることを示しています。文字列の書き換えは、チョムスキーの句構造文法(Chomsky, 1956)の形で、形式言語理論において重要な役割を果たしています。

2.2 制御フロー: 文字列からアルゴリズムへ

生成システムはそれ自体では、ある開始点から生成できる文字列の集合を単に特徴付けるだけです。 しかし、どの生成を実行するかを決定する制御フローを課すことで、アルゴリズムを規定するために使用できます。例えば、マルコフアルゴリズムは優先順位付けされた生成システムです (Markov, 1954)。 次のアルゴリズムは、ストローク | で書かれた数を Q ∗ R の形式に変換することで、剰余付き除算を実装します。ここで、Q は 5 で割った商、R は剰余です。 \[ \begin{align} ∗||||| &→ | ∗ \\ ∗ &\overset{\bullet}{\rightarrow} ∗ \\ &→ ∗ \end{align} \] 優先順位は上から下に向かって実行され、生成規則は左から右へ移動する際に、その前提条件に一致する最初の部分文字列(最後の生成規則の空の部分文字列を含む)に適用されます。 \(\overset{\bullet}{\rightarrow}\) は、アルゴリズムが規則の実行後に停止することを示します。最初の規則は、可能であれば実質的に5を「減算」します。2番目の規則は、それ以上減算できない場合の終了条件を処理します。3番目の規則は、入力が空の部分文字列の場合を処理します。例えば、入力が11の場合、生成規則のシーケンス \(∗|||||||||| → | ∗ |||||| → || ∗ |\overset{\bullet}{\rightarrow} || ∗ |\) が生成されます。これは、2 余り 1 と解釈されます。単純な生成規則は、複雑な動作を引き起こす可能性があり、マルコフアルゴリズムはチューリング完全であることが示されます。

2.3 認知アーキテクチャ:アルゴリズムからエージェントへ

プロダクションシステムは、人間の問題解決を捉える形式主義を模索していたアレン・ニューウェルによってAIコミュニティに普及しました(Newell, 1967; Newell and Simon, 1972)。プロダクションは、文字列の書き換えを超えて論理演算へと一般化されました。つまり、エージェントの目標と世界状態に対してチェックできる前提条件と、前提条件が満たされた場合に実行すべきアクションです。画期的な著書『人間の問題解決』(Newell and Simon, 1972)の中で、アレン・ニューウェルとハーバート・サイモンは、サーモスタットエージェントを実装した単純なプロダクションシステムの例を示しました。 \[ \begin{align} \text{(温度 > 70◦) ∧ (温度 < 72◦)} &→ \text{停止} \\ \text{温度 < 32◦} &→ \text{修理を依頼する; 電気ヒーターをつける} \\ \text{(温度 < 70◦) ∧ (炉オフ)} &→ \text{炉をつける} \\ \text{(温度 > 72◦) ∧ (炉オン)} &→ \text{炉を止める} \end{align} \] この研究に続き、AIコミュニティはプロダクションシステムを採用しました。結果として得られたエージェントは、外部センサー、アクチュエーター、知識ベースに接続された大規模なプロダクションシステムを備え、それに応じて高度な制御フローを必要としました。AI研究者は、人間の認知を模倣した「認知アーキテクチャ」を定義しました。これは、知覚、記憶、計画といったプロセスを明示的にインスタンス化することで(Adams et al., 2012)、柔軟で合理的なリアルタイムの行動(Sun, 2004; Newell, 1980; 1992; Anderson and Lebiere, 2003)を実現します。これは、心理モデリングからロボット工学に至るまでの応用につながり、数百のアーキテクチャと数千の出版物が発表されました(最近の調査については、Kotseruba and Tsotsos (2020) を参照)。

典型的な例として、Soarアーキテクチャ(図2A)が挙げられます。Soarは生成規則を長期記憶に格納し、その前提条件が作業記憶とどの程度一致するかに基づいて実行します(図2B)。これらの生成規則は、作業記憶と長期記憶の内容を変更するアクションを指定します。次に、Soarの概要を簡単に説明します。より詳しい情報については、Laird (2022; 2019)を参照してください。

図2:認知アーキテクチャは、感覚的基盤、長期記憶、そして行動を選択するための意思決定手順によって、プロダクションシステムを拡張します。A:Soarアーキテクチャ。B:Soarの意思決定手順は、プロダクションを用いて行動を選択し、実行します。これらの行動は、内部的なもの(エージェントの記憶の変更など)または外部的なもの(運動コマンドなど)の場合があります。

記憶 心理学理論に基づき、Soarはエージェントの状態を追跡するために複数の種類の記憶を用いる(Atkinson and Shiffrin, 1968)。作業記憶(Baddeley and Hitch, 1974)はエージェントの現在の状況を反映し、エージェントの最近の知覚入力、目標、中間的な内部推論の結果を保存する。長期記憶は3つの異なる種類に分けられる。手続き記憶は生成システムそのもの、つまり作業記憶に適用してエージェントの行動を決定する一連のルールを保存する。意味記憶は世界に関する事実を保存する(Lindes and Laird, 2016)。一方、エピソード記憶はエージェントの過去の行動のシーケンスを保存する(Nuxoll and Laird, 2007)。

グラウンディング Soarは、シミュレーション(Tambe et al., 1995; Jones et al., 1999)または現実世界のロボットシステム(Laird et al., 2012)に実装できます。具体化されたコンテキストでは、様々なセンサーが知覚入力をワーキングメモリにストリームし、そこで意思決定に利用されます。Soarエージェントにはアクチュエーターを搭載することもでき、物理的な動作や言語による対話型学習が可能になります(Mohan et al., 2012; Mohan and Laird, 2014; Kirk and Laird, 2014)。

意思決定 Soarは、生成規則を評価し、最も適合するものを適用する決定ループを実装しています(図2B)。生成規則は長期手続き記憶に保存されます。各決定サイクルにおいて、生成規則の前提条件はエージェントの作業記憶と照合されます。提案および評価フェーズでは、生成規則のセットを用いて、可能なアクションの候補セットを生成し、ランク付けします。∗ そして、最適なアクションが選択されます。† 次に、別の生成規則のセットを用いて、アクションを実行します。例えば、作業記憶の内容を変更したり、運動コマンドを発行したりします。

∗Soarは、より詳細には、プロダクションを2つのタイプに分類します。1つは「オペレータ」(ここではアクションと呼びます)で、もう1つはオペレータを提案、評価、実行するために使用される「ルール」です。

†有効なアクションがない場合、または複数のアクションが同点の場合、行き詰まりが発生します。Soarは行き詰まりを解決するためのサブゴールを作成し、結果として階層的なタスク分解が行われます。より詳細な議論については、Laird (2022)を参照してください。

学習 Soarは複数の学習モードをサポートしています。まず、新しい情報を長期記憶に直接保存できます。事実は意味記憶に、経験はエピソード記憶に書き込むことができます(Derbinsky et al., 2012)。この情報は、意思決定に必要なときに作業記憶に呼び出すことができます。次に、行動を修正できます。強化学習(Sutton and Barto, 2018)を使用して、良好な結果をもたらした生成に重み付けすることで、エージェントが経験から学習できるようにします(Nason and Laird, 2005)。最も注目すべきは、Soarは新しい生成を手続き型記憶に書き込むこともできることです(Laird et al., 1986)。つまり、ソースコードを効果的に更新できるのです。

認知アーキテクチャは心理学とコンピュータサイエンスの分野で広く用いられており、ロボット工学(Laird et al., 2012)、軍事シミュレーション(Jones et al., 1999; Tambe et al., 1995)、インテリジェント・チュータリング(Koedinger et al., 1997)といった分野で応用されています。しかし、ここ数十年でAIコミュニティにおける認知アーキテクチャの人気は低下しています。この人気の低下は、認知アーキテクチャが抱える2つの課題を反映しています。それは、認知アーキテクチャが論理述語で記述できる領域に限定されていること、そして機能するためには事前に指定された多くのルールが必要であることです。

興味深いことに、LLMはこれらの課題に対処するのに適しているように思われます。第一に、任意のテキスト上で動作するため、論理ベースのシステムよりも柔軟性があります。第二に、ユーザーに生成規則を指定することを要求するのではなく、インターネットコーパスを用いた事前学習を通じて生成規則の分布を学習します。この点を認識した研究者たちは、LLMの暗黙的な世界知識(Wray et al., 2021)を活用して従来の記号的アプローチ(Kirk et al., 2023; Romero et al., 2023)を補強し、認知アーキテクチャ内でLLMを使用し始めています。ここでは、認知アーキテクチャの原則を導入し、LLMベースのエージェントの設計を導きます。

2.4 言語モデルとエージェント

言語モデルは、NLPおよびAIコミュニティにおいて数十年にわたる取り組みであり、文脈が与えられた場合にテキストを生成できるシステムの開発を目指しています(Jurafsky, 2000)。言語モデルは、P(wi|w

予想外にも、これらのモデルをインターネット規模のテキストで学習させることで、テキスト生成以外にも、コードの記述(Li et al., 2022b; Rozière et al., 2023; Li et al., 2023c)、タンパク質のモデリング(Meier et al., 2021)、インタラクティブ環境での行動(Yao et al., 2022b; Nakano et al., 2021)など、多くのタスクに役立つことがわかりました。後者は「言語エージェント」の台頭につながっています。これは、LLMを推論、計画、行動のコア計算ユニットとして使用するシステムであり、ロボティクス(Ahn et al., 2022)、製造(Xia et al., 2023)、Web操作(Yao et al., 2022a; Deng et al., 2023)、パズル解決(Yao et al., 2023; Hao et al., 2023)、対話型コード生成(Yang et al., 2023)などの分野に応用されています。言語理解と意思決定能力の組み合わせは、これらのエージェントを人間のような知能に近づけることを約束する、刺激的で新たな方向性です。

3 言語モデルとプロダクションシステムのつながり

文字列処理という共通の起源に基づき、生成システムと言語モデルの間には自然な類似性があります。この類似性をさらに発展させ、プロンプティング法が生成システムに基づくアルゴリズムとエージェントを再現することを示します。生成システムと言語モデルの対応関係は、第4節で紹介する言語エージェントを構築するために認知アーキテクチャを用いる動機となっています。

3.1 確率的生成システムとしての言語モデル

当初のインスタンス化では、生成システムは開始点から生成可能な文字列の集合を指定し、このプロセスを一連の文字列書き換え操作に分解していました。言語モデルはまた、文字列の拡張または変更の可能な集合、つまりモデルに提供されるプロンプトを定義します。‡

‡本研究では、言語エージェントに典型的に用いられる自己回帰LLMに焦点を当てます。しかし、BERT (Devlin et al., 2019) などの双方向LLMも同様の視点で捉えることができます。つまり、BERTはインフィル生成規則上の分布を定義します。

例えば、テキストを完成させる問題を生成規則として定式化することができます。X をプロンプト、Y を継続とすると、これは生成規則 X → X Y と書くことができます。§ 複数の継続の可能性を許容したい場合、ある Yi の集合に対して X → X Yi が成り立ちます。LLM はこれらの完了のそれぞれに確率を割り当てます。この観点から見ると、LLM は入力 X が提示されたときにどの生成規則を選択するかという確率分布を定義し、可能な完了の分布 P(Yi|X) を生成します (Dohan et al., 2022)。したがって、LLM は、呼び出されるたびに可能な完了をサンプリングする確率的生成規則システムと見なすことができます (例: X ∼∼▸ X Y )。

§あるいは、プロンプトを入力として扱い、LLMの出力を次の状態として取り、生成規則X → Yで表すこともできます。これはよりリテラルな書き換え形式です。

この確率的な形式は、従来のプロダクションシステムと比較して、利点と欠点の両方を提供します。 LLMの主な欠点は、その本質的な不透明性です。プロダクションシステムは離散的で人間が判読可能なルールによって定義されるのに対し、LLMは数十億もの解釈不可能なパラメータで構成されています。この不透明性と、確率的な定式化に伴う固有のランダム性が相まって、LLMの動作を分析または制御することが困難になっています (Romero et al., 2023; Valmeekam et al., 2022)。しかしながら、その規模と事前学習は、従来のプロダクションシステムに比べて大きな利点をもたらします。大規模なインターネットデータで事前学習されたLLMは、文字列補完に関する非常に効果的な事前学習を行い、幅広いタスクをすぐに解決できるようになります (Huang et al., 2022b)。

3.2 制御フローとしてのプロンプトエンジニアリング

LLM の重みは、入力文字列(プロンプト)を条件として、出力文字列(補完)の優先順位を定義します。結果として得られる分布は、タスク固有の生成規則の優先順位付け、つまり単純な制御フローとして解釈できます。質問応答などのタスクは、入力文字列(質問)として直接定式化することができ、補完(可能な回答)に対する条件付き分布を生成します。

少数ショット学習(Brown et al., 2020)とプロンプトエンジニアリング(Wei et al., 2022b; Kojima et al., 2022; Xu et al., 2023c)に関する初期の研究では、入力文字列を前処理することで、LLMをさらに高品質な生成に誘導できることが示されています。これらの単純な操作(通常は入力に追加のテキストを連結する)自体が生成と見なすことができ、これらの手法は生成のシーケンスを定義することを意味します(表1)。その後の研究では、これらのアプローチが動的で文脈依存のプロンプトに拡張されました。たとえば、入力に最も関連性の高い少数ショットの例を選択したり(Liu et al., 2021)、ビデオ(Zeng et al., 2022)やデータベース(Lewis et al., 2020)からの外部観測でテンプレートを作成したりします。このようなプロンプト手法の概説については、Liu et al.を参照してください。 (2023d)。

表1:プロンプティング法が補完を生成する前に入力文字列をどのように操作するかを示す概念図。Q = 質問、A = 回答、O = 観察、C = 批評、そして ∼∼∼▸ は確率的生成からのサンプリングを表す。これらの前処理操作(視覚言語モデル(VLM)などの他のモデル、あるいは LLM 自体も使用できる)は生成と見なすことができる。したがって、プロンプティング法は生成のシーケンスを定義する。

その後の研究では、LLM自体を前処理ステップとして用い、問題の特定の側面を前景化するための標的推論を引き出したり(Bai et al., 2022; Jin et al., 2022; Ganguli et al., 2023; Madaan et al., 2023; Saunders et al., 2022; Kim et al., 2023; Kirk et al., 2023)、中間推論ステップを生成してから(Tafjord et al., 2021; Creswell et al., 2023; Yao et al., 2023)、答えを返す研究が行われました。LLMへの複数の呼び出しを連鎖させることで(Wu et al., 2022a;b; Dohan et al., 2022)、より複雑なアルゴリズムが可能になります(図3)。

図3:言語モデルから言語エージェントへ。A:LLM呼び出しの基本構造。プロンプト構築はテンプレートを選択し、ワーキングメモリから変数を設定します。LLM呼び出し後、文字列出力はアクション空間に解析され、実行されます。LLM呼び出しは、回答を返す、関数を呼び出す、モーターコマンドを発行するなど、1つ以上のアクションを引き起こす可能性があります。B:Self-Critique(Wang et al., 2022b)やSelection-Inference(Creswell et al., 2023)などのプロンプト連鎖技術は、定義済みのLLM呼び出しシーケンスを使用して出力を生成します。C:Inner Monologue(Huang et al., 2022c)やReAct(Yao et al., 2022b)などの言語エージェントは、外部環境とのインタラクティブなフィードバックループを使用します。 視覚言語モデル (VLM) は、知覚データを LLM が処理できるようにテキストに変換するために使用できます。

3.3 認知言語エージェントに向けて

言語エージェントは、事前定義されたプロンプトチェーンを超え、LLMを外部環境とのフィードバックループに組み込みます(図1B)。これらのアプローチは、まずマルチモーダル入力をテキストに変換し、LLMに渡します。LLMの出力は解析され、外部アクションを決定するために使用されます(図3C)。初期のエージェントは、LLMを外部環境と直接インターフェースし、エージェントの状態に基づいて高レベルの指示を生成するために使用していました(Ahn et al., 2022; Huang et al., 2022c; Dasgupta et al., 2022)。その後の研究では、LLMを用いてアクションを選択する前に中間推論を実行する、より洗練された言語エージェントが開発されました(Yao et al., 2022b)。最新のエージェントは、エピソード記憶を反映して新たな意味推論を生成する(Shinn et al., 2023)や、プログラムコードを修正して手続き型知識を生成する(Wang et al., 2023a)など、高度な学習戦略を取り入れており、過去の経験を活用して将来の行動を適応させています。

これらの認知言語エージェントは、LLMに基づく非自明な推論と学習を採用しています(図1C)。認知アーキテクチャがプロダクションシステムとエージェントの内部状態および外部環境との相互作用を構造化するために使用されたのと同様に、認知アーキテクチャはLLMに基づく認知エージェントの設計に役立つと考えられます。本稿の残りの部分では、この観点から既存のアプローチを整理し、有望な拡張性について考察します。

言語エージェントのための4つの認知アーキテクチャ(CoALA):概念フレームワーク

既存の言語エージェントを体系化し、新しい言語エージェントの開発を導く枠組みとして、言語エージェントのための認知アーキテクチャ(CoALA)を提示する。CoALAは、LLMをより大きな認知アーキテクチャの中核構成要素として位置付ける(図4)。CoALAでは、言語エージェントは情報をメモリモジュール(4.1節)に保存し、外部部分と内部部分に構造化されたアクション空間で行動する(図5)。

図4:言語エージェントの認知アーキテクチャ(CoALA)。A:CoALAは、相互作用するモジュールとプロセスの集合を定義します。決定手続きはエージェントのソースコードを実行します。このソースコードは、LLM(プロンプトテンプレートとパーサー)、内部メモリ(検索と学習)、および外部環境(グラウンディング)と相互作用するための手続きで構成されています。B:時間的に、エージェントの決定手続きは、外部環境とのループ内で決定サイクルを実行します。各サイクルにおいて、エージェントは検索と推論を用いて、学習またはグラウンディングの候補となる行動を提案・評価することで計画を立てます。そして、最適な行動が選択され、実行されます。観察が行われ、サイクルが再び開始されます。

図5:エージェントの行動空間は、内部記憶へのアクセスと外部世界との相互作用に分けられます。推論と検索の行動は、計画を支援するために使用されます。

言語エージェントは、繰り返されるサイクルに従う意思決定を通じて行動を選択します(セクション4.6、図4B)。 各サイクルにおいて、エージェントは推論と検索行動を用いて計画を立てることができます。この計画サブプロセスは、グラウンディングまたは学習行動を選択し、それが実行されて外界またはエージェントの長期記憶に影響を与えます。

CoALAの意思決定サイクルは、プログラムの「メイン」手続き(関数ではなく戻り値のないメソッド)に類似しています。この手続きはループ内で継続的に実行され、新しい知覚入力を受け取り、それに応じて様々なアクション手続きを呼び出します。CoALA(図4)は、記憶、グラウンディング、学習、意思決定といった主要な概念を活用した、認知アーキテクチャ(セクション2.3)における数十年にわたる研究に着想を得ています。しかし、LLMを組み込むことで、「推論」アクションが追加され、様々な目的のために柔軟に新しい知識とヒューリスティックを生成できるようになります。これは、従来の認知アーキテクチャにおける手書きのルールに取って代わるものです。また、テキストを事実上の内部表現とし、エージェントの記憶モジュールを合理化します。最後に、視覚言語モデル(VLM; Alayrac et al., 2022)の最近の進歩は、知覚データをテキストに直接変換することでグラウンディングを簡素化できます(Zeng et al., 2022)。

このセクションの残りの部分では、CoALAの主要概念である記憶、行動(グラウンディング、推論、検索、学習)、意思決定について詳しく説明します。それぞれの概念について、既存の言語エージェント(または関連するNLP/RL手法)を例として用い、あるいは将来の方向性を見据えて文献のギャップを指摘します。

4.1 メモリ

言語モデルは状態を持たないため、呼び出しをまたいで情報を保持しません。一方、言語エージェントは、世界との多段階的なインタラクションのために、情報を内部的に保存・維持することができます。CoALAフレームワークでは、言語エージェントは情報(主にテクスチャ情報ですが、他のモダリティも許容されます)を、それぞれ異なる形式の情報を含む複数のメモリモジュールに明示的に整理します。これらのメモリモジュールには、短期作業記憶と、エピソード記憶、意味記憶、手続き記憶といった複数の長期記憶が含まれます。

ワーキングメモリ ワーキングメモリは、現在の意思決定サイクル(セクション4.6)において、アクティブですぐに利用可能な情報を記号変数として保持します。これには、知覚入力、アクティブ知識(推論によって生成されたもの、または長期記憶から取得されたもの)、および前回の意思決定サイクルから引き継がれたその他のコア情報(例:エージェントのアクティブゴール)が含まれます。従来の手法では、LLMが自身のコンテキストをワーキングメモリの一形態として使用し、中間推論を生成するように促しています(Wei et al., 2022b; Nye et al., 2021)。 CoALAにおけるワーキングメモリの概念はより一般的であり、LLM呼び出し間で持続するデータ構造です。 各LLM呼び出しにおいて、LLM入力はワーキングメモリのサブセット(例:プロンプトテンプレートと関連変数)から合成されます。 LLMの出力は、他の変数(例えば、アクション名や引数)に再解析され、ワー​​キングメモリに再格納され、対応するアクションの実行に使用されます(図3A)。ワーキングメモリは、LLMに加えて、長期記憶やグラウンディングインターフェースとも相互作用します。したがって、ワーキングメモリは言語エージェントのさまざまなコンポーネントを接続する中心的なハブとして機能します。

エピソード記憶エピソード記憶は、以前の意思決定サイクルの経験を保存します。これは、トレーニング用の入力と出力のペア(Rubin et al., 2021)、履歴イベントフロー(Weston et al., 2014; Park et al., 2023)、以前のエピソードからのゲーム軌跡(Yao et al., 2020; Tuyls et al., 2022)、またはエージェントの経験のその他の表現で構成されます。意思決定サイクルの計画段階では、これらのエピソードが作業記憶に取り出され、推論をサポートする場合があります。エージェントは、学習の一形態として、作業記憶からエピソード記憶に新しい経験を書き込むこともできます(セクション4.5)。

意味記憶 意味記憶は、エージェントの世界と自身に関する知識を記憶します。推論や意思決定に検索を活用する従来のNLPやRLのアプローチでは、知識のサポートのために外部データベースから意味記憶を初期化します。例えば、NLPにおける検索拡張手法(Lewis et al., 2020; Borgeaud et al., 2022; Chen et al., 2017)は、非構造化テキスト(例:Wikipedia)の意味記憶から検索するものと見なすことができます。RLでは、「読むことで学ぶ」アプローチ(Branavan et al., 2012; Narasimhan et al., 2018; Hanjie et al., 2021; Zhong et al., 2021)は、ゲームのマニュアルや事実を意味記憶として活用し、ポリシーに影響を与えます。これらの例では、基本的に固定された読み取り専用の意味記憶を使用していますが、言語エージェントは、LLM推論から得られた新しい知識を学習の一形態として意味記憶に書き込むこともできます(セクション4.5)。これにより、経験から世界に関する知識を段階的に構築します。

手続き記憶言語エージェントには、LLMの重みに格納された暗黙的知識と、エージェントのコードに記述された明示的知識という2種類の手続き記憶が含まれます。エージェントのコードは、さらに2種類に分類できます。アクション(推論、検索、グラウンディング、学習)を実装する手続きと、意思決定自体を実装する手続きです(セクション4.6)。意思決定サイクル中、LLMは推論アクションを介してアクセスでき、さまざまなコードベースの手続きを取得して実行できます。エピソード記憶や意味記憶は最初は空、あるいは存在しない場合もありますが、手続き記憶は、エージェントをブートストラップするために、設計者が適切なコードで初期化する必要があります。最後に、手続き記憶に書き込むことで新しい行動を学習することは可能ですが(セクション4.5)、エピソード記憶や意味記憶に書き込むよりもはるかにリスクが高くなります。これは、簡単にバグが導入されたり、エージェントが設計者の意図を覆したりする可能性があるためです。

4.2 接地(グラウンディング)アクション

グラウンディング手順は、外部行動を実行し、環境からのフィードバックをテキストとしてワーキングメモリに処理します。これにより、エージェントと外界の相互作用は、テキストによる観察と行動を伴う「テキストゲーム」として実質的に単純化されます。私たちは外部環境を3種類に分類しています。

物理環境 物理的具体化は、AIエージェントのために想定された最も古い具体例です(Nilsson, 1984)。これは、知覚入力(視覚、聴覚、触覚)をテキスト観察(例えば、事前学習済みの字幕モデルを介して)に変換し、言語ベースのコマンドを受け取るロボットプランナーを介して物理環境に影響を与えることを含みます。LLMの近年の進歩により、ロボットが物理世界で行動や計画を生成するための「頭脳」としてLLMを活用する多くのロボットプロジェクト(Ahn et al., 2022; Liang et al., 2023a; Singh et al., 2023; Palo et al., 2023; Ren et al., 2023)が生まれています。知覚入力の場合、視覚言語モデルは通常、画像をテキストに変換するために使用され(Alayrac et al., 2022; Sumers et al., 2023)、LLMに追加のコンテキストを提供します(Driess et al., 2023; Huang et al., 2023; Brohan et al., 2022; 2023)。

人間または他のエージェントとの対話 古典的な言語的相互作用により、エージェントは指示を受け入れたり(Winograd, 1972; Tellex et al., 2011; Chen and Mooney, 2011; Bisk et al., 2016)、人間から学習したりすることができます(Nguyen et al., 2021; Sumers et al., 2022; 2021; Wang et al., 2016)。言語生成能力を持つエージェントは、助けを求めたり(Ren et al., 2023; Nguyen et al., 2022b; 2019; Nguyen and Daumé III, 2019)、説明を求めたり(Biyik and Palan, 2019; Sadigh et al., 2017; Padmakumar et al., 2022; Thomason et al., 2020; Narayan-Chen et al., 2019)、人々を楽しませたり、感情的に助けたり(Zhang et al., 2020; Zhou et al., 2018; Pataranutaporn et al., 2021; Hasan et al., 2023; Ma et al., 2023)することがある。最近の研究では、社会的シミュレーション(Park et al., 2023; Jinxin et al., 2023; Gao et al., 2023)、討論(Chan et al., 2023; Liang et al., 2023b; Du et al., 2023)、安全性の向上(Irving et al., 2018)、協調的なタスク解決(Qian et al., 2023; Wu et al., 2023; Hong et al., 2023a; Dong et al., 2023)のための複数言語エージェント間の相互作用も調査されています。

デジタル環境。これには、ゲーム(Hausknecht et al., 2020; Côté et al., 2019; Shridhar et al., 2020; Wang et al., 2022a; Liu et al., 2023e)、API(Schick et al., 2023; Yao et al., 2022b; Parisi et al., 2022; Tang et al., 2023b)、ウェブサイト(Shi et al., 2017; Nakano et al., 2021; Yao et al., 2022a; Zhou et al., 2023b; Gur et al., 2023; Deng et al., 2023)とのインタラクション、および一般的なコード実行が含まれます。 (Yang et al., 2023; Le et al., 2022; Ni et al., 2023)。このようなデジタルグラウンディングは、物理的なインタラクションや人間によるインタラクションよりも安価で高速です。そのため、言語エージェントにとって便利なテストベッドとなり、近年ますます盛んに研究されています。特に、外部知識や計算の拡張を必要とするNLPタスクでは、状態を持たないデジタルAPI(検索、計算機、翻訳など)が「ツール」としてパッケージ化されることが多く(Parisi et al., 2022; Schick et al., 2023; Xu et al., 2023a; Tang et al., 2023b; Qin et al., 2023)、これは特別な「使い捨て」のデジタル環境と見なすことができます。

4.3 検索アクション

CoALAでは、検索手順(Li et al., 2022a; Gu et al., 2018)によって、長期記憶から作業記憶に情報が読み込まれます。情報と記憶の種類に応じて、ルールベース、スパース、デンス検索など、さまざまな方法で実装できます。例えば、Voyager(Wang et al., 2023a)は、スキルライブラリからデンス検索を介してコードベースのスキルを読み込み、Minecraftの世界と対話します。これは、手続き型記憶からグラウンディング手順を効果的に検索することになります。Generative Agents(Park et al., 2023)は、最新性(ルールベース)、重要度(推論ベース)、関連性(埋め込みベース)のスコアの組み合わせによって、エピソード記憶から関連するイベントを検索します。 DocPrompting (Zhou et al., 2022a) は、ライブラリ文書を活用してコード生成を支援することを提案しており、これは意味記憶からの知識検索と捉えることができます。検索は人間の意思決定において重要な役割を果たしますが (Zhou et al., 2023a; Zhao et al., 2022)、言語エージェントにおける適応的かつ文脈依存的な想起は未だ十分に研究されていません。第6節では、意思決定と検索の原理的な統合を、将来の重要な方向性として提案します。

4.4 推論アクション

推論により、言語エージェントは作業記憶の内容を処理して新しい情報を生成することができます。長期記憶から作業記憶に読み込む検索とは異なり、推論は作業記憶から読み込み、作業記憶に書き込みます。これにより、エージェントは最新の観察情報(Yao et al., 2022b; Peng et al., 2023)、最新の軌跡(Shinn et al., 2023)、または長期記憶から読み込んだ情報(Park et al., 2023)に関する洞察を要約し、抽出することができます。推論は、学習(結果を長期記憶に書き込むこと)や意思決定(結果を後続のLLM呼び出しの追加コンテキストとして使用すること)を支援するために使用できます。

4.5 学習アクション

学習は、多様な手順を含む長期記憶に情報を書き込むことによって行われます。 経験によるエピソード記憶の更新。RLエージェントでは、エピソード軌跡を保存してパラメトリックポリシーを更新したり(Blundell et al., 2016; Pritzel et al., 2017)、ノンパラメトリックポリシーを確立したり(Ecoffet et al., 2019; Tuyls et al., 2022)、するのが一般的です。言語エージェントの場合、エピソード記憶に追加された経験は、推論や意思決定の例や根拠として後で取り出されることがあります(Weston et al., 2014; Rubin et al., 2021; Park et al., 2023)。

知識による意味記憶の更新 最近の研究 (Shinn et al., 2023; Park et al., 2023) では、LLM を用いて生の経験について推論し、得られた推論を意味記憶に保存しています。例えば、Reflexion (Shinn et al., 2023) は、LLM を使用して失敗したエピソードを振り返り、その結果 (例: 「キッチンには食器洗い機がない」) を意味知識として LLM コンテキストに付加し、後のエピソードを解決します。最後に、ロボティクスの研究 (Chen et al., 2023a) では、視覚言語モデルを用いて環境の意味マップを構築し、後でこのマップにクエリを実行して指示を実行できるようにしています。

LLMパラメータの更新(手続き的記憶) LLMの重みは暗黙的な手続き的知識を表します。これらは、エージェントの生存期間中に微調整することで、エージェントのドメインに合わせて調整できます。このような微調整は、教師あり学習(Liu et al., 2023c; Zhang et al., 2023b)または模倣学習(Hussein et al., 2017)、環境フィードバックからの強化学習(RL)(Sutton and Barto, 2018)、ヒューマンフィードバック(RLHF; Christiano et al., 2017; Ouyang et al., 2022; Nakano et al., 2021)、またはAIフィードバック(Bai et al., 2022; Liu et al., 2023f)によって実現できます。古典的なLLM自己改善手法(Huang et al., 2022a; Zelikman et al., 2022)では、一貫性(Wang et al. (2022b))などの外部指標を用いて、微調整する世代を選択します。強化学習の設定では、これを拡張して環境フィードバックを代わりに使用できます。例えば、XTX(Tuyls et al., 2022)は、エピソード記憶に保存された高得点の軌跡に基づいて、小規模な言語モデルを定期的に微調整します。これは、確率性に直面しても探索フロンティアに到達するための堅牢な「活用」方策として機能します。エージェントのLLMを微調整することはコストのかかる学習形式であるため、現在の研究では学習スケジュールを指定しています。しかし、トレーニングがより効率的になるにつれて、またはエージェントがより小さなサブタスク固有のLLMを利用するようになると、言語エージェントがいつどのようにLLMを微調整するかを自律的に決定できるようにすることが可能になる可能性があります。

エージェントコード(手続き記憶)の更新 CoALAは、エージェントがソースコードを更新し、様々な手続きの実装を変更できるようにします。これらは以下のように分類できます。

RLエージェントは通常、学習方法を1つ(例:Q学習、PPO、A3C)に固定し、モデルパラメータを更新することで学習しますが、言語エージェントは多様な学習手順から選択できます。これにより、タスクに関連する言語を保存することで(パラメータ更新よりも安価で迅速)、迅速に学習し、複数の学習形式を活用して自己改善を加速させることができます(例:第5章で説明した生成エージェント)。

最後に、これまでの議論は主に記憶への追加に焦点を当ててきましたが、修正と削除(いわゆる「アンラーニング」)については、最近の言語エージェントでは十分に研究されていません。これらの分野については、第6節でさらに詳しく説明します。

4.6 意思決定

行動空間における様々な行動(グラウンディング、学習、推論、検索)において、言語エージェントはどの行動を適用するかをどのように選択すべきでしょうか?これは、事実上最上位、つまり「メイン」エージェントプログラムである意思決定手順によって処理されます。CoALAはこの最上位プログラムを意思決定サイクル(図4B)に構造化し、外部グラウンディング行動(セクション4.2)または内部学習行動(セクション4.5)を生成します。各サイクルにおいて、プログラムコードは一連の推論および検索行動を定義し、代替案を提案・評価します(計画段階)。次に、選択された行動を実行します(実行段階)。そして、サイクルが再びループします。

計画段階 計画段階では、推論と検索を柔軟に適用して行動を提案、評価、選択することができ、これらのサブステージは、外部行動をとる前に、インターリーブまたは反復して複数段階のシミュレーション(Tamari et al., 2020)を構築することができます(Yao et al., 2023; Hao et al., 2023)。また、エージェントは、例えばLLMを用いてシミュレーションを行い、欠陥を特定し、それらの欠陥に対処する修正を提案するなど、候補となる解決策を反復的に改善することも可能になります(Kirk et al., 2023; Shinn et al., 2023)。

実行 選択されたアクションは、エージェントのソースコードから関連する手順を実行することによって適用されます。エージェントの実装に応じて、これは外部グラウンディングアクション(例:API呼び出し、セクション4.2)または内部学習アクション(例:エピソードメモリへの書き込み、セクション4.5)となる場合があります。環境からの観察が行われ、エージェントのアクションからのフィードバックが提供され、サイクルが再びループします。

経験的に、初期の言語エージェントの多くは、中間推論や検索を経ずに、LLMを用いて行動(Schick et al., 2023)、行動のシーケンス(Huang et al., 2022b)、または固定された一連の行動(Ahn et al., 2022)を提案するだけです。その後の研究(Yao et al., 2022b; Shinn et al., 2023; Xu et al., 2023b; Lin et al., 2023; Wang et al., 2023a; Park et al., 2023)では、中間推論と検索を利用して状況を分析し、行動計画を作成・維持し、環境からのフィードバックに基づいて以前の行動を改良し、より複雑な手順を用いて単一の行動を提案しています。最近では、複数の行動を検討するために反復的な提案と評価を用いた、より複雑な意思決定を調査する研究が始まっています。これらの手順は、古典的な計画アルゴリズムをモデル化しています。例えば、Tree of Thoughts(Yao et al., 2023)とRAP(Hao et al., 2023)は、それぞれBFS/DFSとモンテカルロ木探索(MCTS; Browne et al., 2012)を実装するためにLLMを使用しています。LLMは、提案を生成する(つまり、行動を条件とした展開をシミュレートする)ことと、提案を評価する(つまり、提案された行動の結果を評価する)ために使用されます。

5つのケーススタディ

CoALAは、記憶モジュール、行動空間、意思決定手順のバリエーションやアブレーションによって、幅広い言語エージェントを表現できます。表2は、Minecraftからロボット工学、純粋推論から社会模造品まで、様々な分野における最近の人気手法をいくつか示しています。CoALAは、それらの内部メカニズムを特徴づけ、類似点と相違点をシンプルかつ構造化された方法で明らかにするのに役立ちます。

表 2: CoALA フレームワークにキャストされた最近の言語エージェントの一部。

¶すべてのエージェントには手続き型メモリ(エージェントコードとLLMの重み)が含まれているため、ここでは書き込み可能な手続き型メモリのみをリストします。‖最終的な回答を送信することだけが外部アクションである特別なデジタルグラウンディング。

SayCan (Ahn et al., 2022) は、キッチンでのロボットとのインタラクションに言語モデルをグラウンディングし、ユーザーコマンド(例:「運動したばかりなので、回復するために飲み物と軽食を持ってきてもらえますか?」)に対応します。SayCan の長期記憶は手続き型(LLM と学習値関数)のみです。行動空間は外部空間のみで、551 個のグラウンディングスキル(例:「リンゴを見つける」、「テーブルに行く」)の固定セットで構成され、推論、検索、学習といった内部アクションは備えていません。意思決定において、SayCan は LLM と学習値の組み合わせを用いて各行動を評価し、スキルの有用性とグラウンディング性のバランスをとります。そのため、SayCan は LLM を(学習値関数と組み合わせて)シングルステッププランナーとして利用します。

ReAct (Yao et al., 2022b) は、様々なデジタル環境(例:Wikipedia API、テキストゲーム、ウェブサイト)にグラウンディングされた言語エージェントです。SayCan と同様に、意味記憶やエピソード記憶を欠いているため、検索や学習のアクションはありません。ReAct の行動空間は、(内部)推論と(外部)グラウンディングで構成されています。ReAct の意思決定サイクルは、単一の推論アクションを使用して状況を分析し、行動計画を(再)作成し、評価や選択の段階なしにグラウンディングアクションを生成するというものです。ReAct は、内部アクションと外部アクションの両方を活用する最も単純な言語エージェントと見なすことができ、それらの相乗効果を示す最初の研究です。推論は行動を導き、行動は推論をサポートするための環境フィードバックを提供します。

Voyager (Wang et al., 2023a) は、Minecraft API にグラウンディングされた言語エージェントです。学習値関数を介して知覚にグラウンディングする SayCan とは異なり、Voyager のグラウンディングはテキストのみです。Voyager は、コードベースのグラウンディング手順(スキル)のライブラリ(例:「combatZombie」、「craftStoneSword」)を格納する長期手続き記憶を備えています。このライブラリは階層構造になっており、複雑なスキルは、より単純なスキルをサブプロシージャとして使用できます(例:「combatZombie」は、インベントリに剣がない場合、「craftStoneSword」を呼び出すことができます)。最も印象的なのは、そのアクション空間に、グラウンディング、推論、検索、学習(新しいグラウンディング手順の追加による)という 4 種類のアクションがすべて備わっていることです。意思決定サイクルにおいて、Voyagerはまず、作業記憶に新しいタスク目標がない場合、その目標を提案する推論を行い、次にタスクを解決するためのコードベースのグラウンディング手順を提案する推論を行います。次の意思決定サイクルでは、Voyagerは環境からのフィードバックに基づいて推論を行い、タスクの完了を判断します。成功した場合、Voyagerはグラウンディング手順を手続き記憶に追加する学習アクションを選択します。そうでない場合は、推論を用いてコードを改良し、再実行します。長期記憶と手続き学習の重要性は、ReActやAutoGPTなどのベースラインや、手続き記憶のないアブレーションと比較することで実証的に検証されています。Voyagerは、より優れた領域探索、技術ツリーの習得、そして未知のタスクへのゼロショット汎化を行うことが示されています。

生成エージェント (Park et al., 2023) は、環境や他のエージェントとのインタラクションを可能にするサンドボックスゲームを基盤とした言語エージェントです。その行動空間には、グラウンディング、推論、検索、学習という4種類の行動がすべて存在します。各エージェントは、イベントをリスト形式で保存する長期エピソード記憶を備えています。これらのエージェントは、検索と推論を用いてエピソード記憶に関する考察(例:「私は今スキーをするのが好きだ」)を生成し、それを長期意味記憶に書き込みます。意思決定時には、意味記憶から関連する考察を検索し、その日のハイレベルな計画を立てるための推論を行います。計画を実行する際、エージェントはグラウンディング観測のストリームを受け取り、これらに基づいて推論を行い、計画を維持または調整することができます。

思考の樹(ToT)(Yao et al., 2023)は、推論問題(24ゲーム、創作文、クロスワードパズル)に対する最終解を提出するという、1つの外部アクションのみを持つ特殊な言語エージェントと見なすことができます。ToTは長期記憶を持たず、内部アクション空間での推論のみを行いますが、意図的な意思決定においてこれまでのエージェントとは異なります。計画段階において、ToTはLLM推論に基づいて「思考」(推論アクション)を反復的に提案、評価、選択し、ツリー探索アルゴリズムを介してそれらを維持することで、グローバルな探索だけでなく、ローカルなバックトラックと先見性も可能にします。

6つの実用的な洞察

言語エージェントに関する最近の実証的調査(Mialon et al., 2023; Weng, 2023; Wang et al., 2023b)と比較すると、CoALAは認知アーキテクチャに関する確立された研究に基づいた理論的枠組みを提供します。これにより、独自の補完的な実用的な洞察が得られます。

モジュール型エージェント:モノリスを超えた思考。おそらく私たちの最も重要な提案は、エージェントは構造化され、モジュール化されるべきであるということです。実際には、標準化されたソフトウェアがロボットプラットフォーム全体で使用されているのと同様に(Quigley, 2009; Macenski et al., 2022)、言語エージェントのフレームワークは技術投資を統合し、互換性を向上させるでしょう。

エージェント設計:単純な推論を超えた思考 CoALAは、エージェントを3つの異なる概念、すなわち(i)内部メモリ、(ii)可能な内部および外部アクションの集合、(iii)それらのアクションに基づく意思決定手順に基づいて定義します。CoALAを用いてアプリケーション固有のエージェントを開発するには、これらの各コンポーネントの実装を順番に指定する必要があります。エージェントの環境と外部アクション空間は既知であると仮定し、CoALAを用いて適切な高レベルアーキテクチャを決定する方法を示します。例えば、ユーザーのクエリや購入履歴に基づいて関連商品を見つけるのを支援するパーソナライズされた小売アシスタント(Yao et al., 2022a)の設計を想像してみてください。この場合、外部アクションは対話または検索結果をユーザーに戻すこととなります。

構造化推論:プロンプトエンジニアリングを超えた思考。プロンプトエンジニアリングに関する初期の研究では、LLMの入出力を低レベルの文字列操作によって操作していました。CoALAは、ワーキングメモリ変数を更新するための、より構造化された推論手順を提案しています。

長期記憶:検索拡張の先を見据えて。従来の検索拡張言語モデル(Guu et al., 2020; Lewis et al., 2020; Borgeaud et al., 2022)は人間が作成したコーパスからのみ読み取りますが、記憶拡張言語エージェントは自己生成コンテンツを自律的に読み書きできます。これにより、効率的な生涯学習の可能性が広がります。

学習:コンテキスト内学習やファインチューニングを超えた思考。CoALAにおける「学習」の定義はこれらの手法を包含するだけでなく、新たな経験や知識の蓄積、あるいは新たなエージェントコードの作成まで拡張される(第4.5節)。今後の重要な方向性としては、以下のものが挙げられます。

アクション空間:外部ツールやアクションを超えた思考。「アクション空間」は強化学習では標準的な用語ですが、言語エージェントではあまり使用されていません。CoALAは、内部アクション(推論、検索、学習)と外部アクション(グラウンディング)の両方を備えた、明確でタスクに適したアクション空間を定義することを提唱しています。これは、エージェント設計の体系化と情報提供に役立ちます。

意思決定:行動生成を超えた思考。言語エージェントにとって最もエキサイティングな将来の方向性の一つは意思決定であると考えています。4.6節で詳述したように、多くの研究は依然として単一の行動を提案(または直接生成)することに限定されています。現在のエージェントは、より慎重な、提案・評価・選択という意思決定手順の表面をかすめたに過ぎません。

7 考察

上記で示した実践的な洞察に加えて、CoALAは多くの未解決の概念的な問いを提起します。 ここでは、今後の研究と議論にとって重要な方向性として、最も興味深い点を簡単に取り上げます。

LLM vs VLM:推論は言語のみかマルチモーダルか?ほとんどの言語エージェントは、意思決定に言語のみのモデルを使用し(Yao et al., 2022b; Wang et al., 2023a; Yao et al., 2023)、必要に応じて環境観測をテキストに変換するために別のキャプションモデルを採用しています(Ahn et al., 2022; Zeng et al., 2022)。しかし、最新世代の言語モデルはマルチモーダルであり、画像とテキストのインターリーブ入力が可能です(OpenAI, 2023a; Alayrac et al., 2022; Team et al., 2023; Li et al., 2023b)。このようなマルチモーダルモデル上に構築された言語エージェントは、画像とテキストの両方の入力に対してネイティブに推論を行う(Bavishi et al., 2023; Elsen et al., 2023; Liu et al., 2023b; Hong et al., 2023b; Driess et al., 2023)。これにより、知覚データを取り込み、直接行動を生成することができる。これは、非可逆的な画像からテキストへの変換を回避できるが、同時に、推論と計画のプロセスをモデルの入力モダリティと密接に結び付けている。

大まかに言えば、これら2つのアプローチは、非言語的モダリティをコア推論モデルの言語ドメインに変換するための異なるトークン化スキームと見なすことができます。モジュール型アプローチは、別個の画像テキスト変換モデルを用いて知覚データを言語に変換します(Ahn et al., 2022; Zeng et al., 2022)。一方、統合型アプローチは、画像を言語モデルの表現空間に直接投影します(Bavishi et al., 2023; Elsen et al., 2023; Liu et al., 2023b)。統合されたマルチモーダル推論は、より人間に近い行動を可能にする可能性があります。例えば、VLMベースのエージェントはウェブページを「見る」ことができますが、LLMベースのエージェントは生のHTMLを受け取る可能性が高くなります。しかし、エージェントの知覚システムと推論システムを結合すると、エージェントはよりドメイン特化型になり、更新が困難になります。どちらの場合でも、CoALA によって記述された基本的なアーキテクチャ原則(内部メモリ、構造化されたアクション空間、一般化された意思決定)は、エージェントの設計を導くために使用できます。

内部 vs. 外部:エージェントとその環境の境界はどこにあるのでしょうか?人間やロボットは身体化された環境とは明確に区別されますが、デジタル言語エージェントの境界はそれほど明確ではありません。例えば、Wikipediaデータベースは内部的な意味記憶なのでしょうか、それとも外部的なデジタル環境なのでしょうか(Yao et al., 2022b)?エージェントが回答を提出する前にコードを反復的に実行し、改善する場合(Shinn et al., 2023; Yang et al., 2023)、コード実行は内部的なものなのでしょうか、それとも外部的なものなのでしょうか?手法が提案と評価のプロンプトから構成される場合(Yao et al., 2023)、それは単一のエージェントと見なすべきでしょうか、それとも2つのより単純なエージェント(提案者と評価者)が協力して行うものと考えるべきでしょうか?

境界の問題は、制御可能性と結合性の観点から答えられると我々は提案する。例えば、Wikipedia は制御可能ではない。他のユーザーによって予期せず変更される可能性のある外部環境である。しかし、エージェントのみが書き込み可能なオフライン版は制御可能であり、したがって内部メモリと見なすことができる。同様に、内部仮想環境でのコード実行は内部推論アクションと見なすべきであるのに対し、外部マシン(セキュリティ上の脆弱性が存在する可能性がある)でのコード実行は外部グラウンディングアクションと見なすべきである。最後に、エージェントの側面(提案や評価のプロンプトなど)が相互に設計され、依存している場合、それらは密に結合されており、個々のエージェントのコンポーネントとして概念化するのが最適である。対照的に、各ステップが独立して有用な場合は、マルチエージェントの観点がより適切である可能性がある。これらのジレンマは主に概念的なものではあるが、このような理解はエージェント設計を支援し、分野全体で共通の用語を統一するのに役立つ可能性がある。実践者は、自分の仕事に一貫性があり有用である限り、自分の好みのフレーミングを選択することもできます。

物理世界 vs. デジタル世界:どのような違いが注意を喚起するのか? 動物は物理世界では一度しか生きられないのに対し、デジタル環境(例:インターネット)では、多くの場合、順次的な試行(リセットによる)と並行的な試行が可能である。これは、デジタルエージェントがより大胆に探索(例:100万のウェブページを開く)し、並列タスク解決のために自己複製(例:100万のウェブエージェントが異なるウェブパスを試す)できることを意味する。これは、人間の認知に着想を得た現在の意思決定手順とは異なるものとなる可能性がある(Griffiths, 2020)。

学習 vs. 行動:エージェントはどのように継続的かつ自律的に学習すべきか?CoALAフレームワークでは、学習はグラウンディングと同様に意思決定サイクルの結果として生じる行動である。つまり、エージェントは意図的に情報を長期記憶に記憶することを選択する。これは、学習スケジュールを単純に固定し、意思決定は外部行動にのみ使用するほとんどのエージェントとは対照的である。しかし、生物学的エージェントにはこのような余裕はない。エージェントは生涯を通じて学習と外部行動のバランスを取り、いつ何を学習するかを選択しなければならない(Mattar and Daw, 2018)。より柔軟な言語エージェント(Wang et al., 2023a; Park et al., 2023)は同様の設計に従い、学習を外部行動と同等に扱う。学習は通常の意思決定中の可能な行動として提案され、エージェントは適切な時期までそれを「延期」することができる。

GPT-4 vs GPT-N:より強力なLLMによってエージェント設計はどのように変化するでしょうか? エージェント設計は、新しいLLM機能がスケールとともに出現するにつれて、常に変化し続けます(Wei et al., 2022a)。例えば、GPT-2(Radford et al., 2019)などの初期の言語モデルはLLMエージェントをサポートしていませんでした。実際、当時の研究では、行動生成のためにGPT-2と強化学習を組み合わせる必要がありました(Yao et al., 2020)。 GPT-3(Brown et al., 2020)は、NLPタスクのための柔軟な少数ショットおよびゼロショット推論を可能にしました。一方、GPT-4 (OpenAI, 2023a) だけが、より信頼性の高い自己評価 (Saunders et al., 2022; Shinn et al., 2023; Yao et al., 2023) と自己改良 (Madaan et al., 2023; Chen et al., 2023b) を可能にし始めています。将来の LLM は、コード化されたルールと追加学習モデルの必要性をさらに減らすでしょうか?これは CoALA フレームワークの変更を必要とするでしょうか?思考実験として、GPT-N が記憶、グラウンディング、学習、意思決定を文脈の中で「シミュレート」できると想像してみてください。つまり、考えられるすべてのアクションをリストし、それぞれをシミュレートして評価し、長期記憶全体を非常に長いコンテキストで明示的に維持するのです。あるいは、もっと大胆に言えば、GPT-N+1は、文脈における中間的な推論なしに、ニューロン内で暗黙的にシミュレーションすることで、次の行動を生成することに成功するかもしれません。これらの極端なケースは近い将来には起こりそうにありませんが、段階的な改善によって、さまざまなCoALAコンポーネントの重要性が変化する可能性があります。たとえば、コンテキストウィンドウが長くなると長期記憶の重要性が低下し、内部評価とシミュレーションのためのより強力な推論によって、より長期的な計画が可能になります。一般的に、LLMは生物学的限界の影響を受けず(Griffiths, 2020)、その出現特性を予測することは困難でした。それでもなお、CoALA、そしてより一般的には認知科学は、言語エージェントが成功または失敗するタスクを整理し、特定のタスクで特定のLLMを補完するためのコードベースの手順を提案するのに役立つ可能性があります。GPTがCoALAのすべてのメカニズムをニューロンに実装する最も極端なケースでさえ、それらの暗黙的な回路を発見し解釈するための概念ガイドとしてCoALAを活用することは有益かもしれません。もちろん、第6節で述べたように、エージェントのユースケースはLLM機能の発見、定義、そして形成にも役立ちます。チップとコンピュータアーキテクチャが共進化してきたように、言語モデルとエージェント設計も相互に発展していくべきです。

8 結論

私たちは、言語エージェントを記述・構築するための概念フレームワークである、言語エージェントのための認知アーキテクチャ(CoALA)を提案しました。このフレームワークは、記号的人工知能と認知科学の豊かな歴史から着想を得ており、数十年にわたる知見と大規模言語モデルに関する最先端の研究を結び付けています。このアプローチは、より汎用的で人間に近い人工知能の開発への道を開くものと信じています。

謝辞

校正と貴重なフィードバックをいただいたHarrison Chase氏、Baian Chen氏、Khanh Nguyen氏、Ofir Press氏、Noah Shinn氏、Jens Tuyls氏、そして有益な議論をしてくださったPrinceton NLP GroupおよびPrinceton Computational Cognitive Science Labのメンバーに感謝します。最後に、洞察に満ちたコメントと提案をいただいた匿名の査読者の方々にも感謝します。SYとKNは、Oracle Collaborative Research Awardおよび米国国立科学財団(National Science Foundation)の助成金番号2239363による支援に感謝いたします。本資料に記載されている意見、知見、結論、または推奨事項は著者のものであり、必ずしも米国国立科学財団の見解を反映するものではありません。SYはプリンストン大学のHarold W. Dodds Fellowshipの支援を受けています。TSは、米国国防科学工学(NDSEG)大学院フェローシッププログラムの支援を受けています。

参考文献